推断线性关系是许多实证研究的核心。线性依赖性的度量应正确评估关系的强度,并符合对人群的有意义。 Pearson的相关系数(PCC)是双变量关系的\ textit {De-facto}量度,这两个方面都缺乏。估计的强度$ r $可能是由于样本量有限和数据非正态而可能错误的。在统计显着性测试的背景下,将$ p $值作为后验概率的错误解释导致I型错误 - 这是一个具有显着性测试的一般问题,扩展到PCC。同时测试多个假设时,此类错误会加剧。为了解决这些问题,我们提出了一种基于机器学习的预测数据校准方法,从本质上讲,该方法在预期的线性关系上进行了研究。使用校准数据计算PCC会产生校准的$ P $值,可以将其解释为后验概率以及校准的$ r $估计值,这是其他方法未提供的所需结果。此外,随之而来的对每个测试的独立解释可能会消除对多次测试校正的需求。我们提供了使用多个模拟和对现实世界数据的应用,有利于提出的方法的经验证据。
translated by 谷歌翻译
深层神经网络目前提供了最先进,最精确的机器学习模型,以区分患有阿尔茨海默氏病和健康对照的受试者的结构MRI扫描。不幸的是,由于这些多层和非线性模型的复杂性,这些模型捕获的微妙的大脑改变很难解释。已经提出了几种热图方法来解决此问题并分析从深神经网络中提取的成像模式,但是到目前为止,尚未对这些方法进行定量比较。在这项工作中,我们通过从ADNI数据集的T1 MRI扫描中得出卷积神经网络(CNN)的热图来探讨这些问题,并通过将这些热图与对应于支持向量机(SVM)系数的脑图进行比较。研究了三种突出的热图方法:层次相关性传播(LRP),综合梯度(IG)和引导GRAD-CAM(GGC)。与先前在视觉上或定性评估热图的质量的研究相反,我们通过与大型荟萃分析的地面图相重叠,从而获得了精确的定量措施,该量度合并了77个基于Voxel的形态计量学(VBM)研究,独立于ADNI。我们的结果表明,所有三个热图方法都能够捕获涵盖荟萃分析图的大脑区域,并获得了比SVM系数更好的结果。其中,IG产生了与独立荟萃分析的最佳重叠的热图。
translated by 谷歌翻译
贝叶斯优化(BO)方法试图找到目标功能的全球最佳功能,这些功能仅作为黑盒或昂贵的评估。这样的方法为目标函数构建了替代模型,从而量化了通过贝叶斯推论的替代物中的不确定性。客观评估是通过在每个步骤中最大化采集函数来依次确定的。但是,由于采集函数的非转换性,尤其是在批处理贝叶斯优化的情况下,该辅助优化问题可能是高度不平凡的,因此可以解决。在这项工作中,我们将批处理重新定义为在概率措施空间上的优化问题。我们基于多点预期改进来构建一个新的采集函数,该功能是概率度量空间的凸面。解决此“内部”优化问题的实用方案自然会作为该目标函数的梯度流。我们证明了这种新方法对不同基准函数的功效,并与最先进的批次BO方法进行了比较。
translated by 谷歌翻译
内核回归(KR)中的主要高参数是内核的选择。在KR的大多数理论研究中,人们假设在查看训练数据之前固定了内核。在此假设下,众所周知,最佳内核等于目标函数的先前协方差。在本说明中,我们认为在查看培训数据后可以更新内核的KR。我们指出,在这种情况下,使用目标函数后部的内核选择类似。讨论了与数据依赖性内核学习者一起与深度神经网络视图的联系。
translated by 谷歌翻译
过度参数化的神经网络的实际成功促进了最近对插值方法的科学研究,这些研究非常适合其训练数据。如果没有灾难性的测试表现,包括神经网络在内的某些插值方法(包括神经网络)可以符合嘈杂的训练数据,这是违反统计学习理论的标准直觉的。为了解释这一点,最近的一系列工作研究了$ \ textit {良性过拟合} $,这是一种现象,其中一些插值方法即使在存在噪音的情况下也接近了贝叶斯的最佳性。在这项工作中,我们认为,虽然良性过度拟合既具有启发性和富有成效的研究在测试时间的风险,这意味着这些模型既不是良性也不是灾难性的,而是属于中间状态。我们称此中级制度$ \ textit {perked forporting} $,我们启动其系统研究。我们首先在内核(Ridge)回归(KR)的背景下探索这种现象,通过在脊参数和核特征光谱上获得条件,KR在这些条件下表现出三种行为。我们发现,具有PowerLaw光谱的内核,包括Laplace内核和Relu神经切线内核,表现出了过度拟合的。然后,我们通过分类法的镜头从经验上研究深度神经网络,并发现接受插值训练的人是脾气暴躁的,而那些训练的人则是良性的。我们希望我们的工作能够使人们对现代学习过度拟合的过度理解。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
它已被广泛记录说粒子过滤器中的采样和重采样步骤不能差异化。介绍{\ itshape Reparameterisisisisisation技巧}以允许采样步骤重新重整为可微分功能。我们扩展{\ itshape Reparameterisisisation Trick}以包括重采样的随机输入,因此在此步骤之后限制了梯度计算中的不连续性。了解先前和可能性的梯度允许我们运行粒子马尔可夫链蒙特卡罗(P-MCMC)并在估算参数时使用No-U转样采样器(螺母)作为提案。我们将大都市调整后的Langevin算法(MALA)进行比较,汉密尔顿蒙特卡罗与不同数量的步骤和坚果。我们考虑两个状态空间模型,并表明坚果改善了马尔可夫链的混合,可以在较少的计算时间内产生更准确的结果。
translated by 谷歌翻译
指导神经网络设计的方法的开发是深度学习理论的重要开放挑战。作为原则神经体系结构设计的范式,我们提出了高性能内核的翻译,它们对第一原理设计更好地理解和适合于等效的网络体系结构,这些网络体系结构具有较高的效率,灵活性和功能学习。为此,我们建设性地证明,只有适当的激活函数选择,任何一个正阳性点 - 产品核可以实现为完全连接的神经网络的NNGP或神经切线核,只有一个隐藏的层。我们通过数值验证我们的构建,并证明了其在多个实验中有限完全连接网络的设计工具。
translated by 谷歌翻译
New architecture GPUs like A100 are now equipped with multi-instance GPU (MIG) technology, which allows the GPU to be partitioned into multiple small, isolated instances. This technology provides more flexibility for users to support both deep learning training and inference workloads, but efficiently utilizing it can still be challenging. The vision of this paper is to provide a more comprehensive and practical benchmark study for MIG in order to eliminate the need for tedious manual benchmarking and tuning efforts. To achieve this vision, the paper presents MIGPerf, an open-source tool that streamlines the benchmark study for MIG. Using MIGPerf, the authors conduct a series of experiments, including deep learning training and inference characterization on MIG, GPU sharing characterization, and framework compatibility with MIG. The results of these experiments provide new insights and guidance for users to effectively employ MIG, and lay the foundation for further research on the orchestration of hybrid training and inference workloads on MIGs. The code and results are released on https://github.com/MLSysOps/MIGProfiler. This work is still in progress and more results will be published soon.
translated by 谷歌翻译